home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9610 / 000116_owner-urn-ietf _Fri Oct 25 15:32:00 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  4KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id PAA00902 for urn-ietf-out; Fri, 25 Oct 1996 15:32:00 -0400
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id PAA00897 for <urn-ietf@services.bunyip.com>; Fri, 25 Oct 1996 15:31:58 -0400
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA07959  (mail destined for urn-ietf@services.bunyip.com); Fri, 25 Oct 96 15:31:53 -0400
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <01036-0@josef.ifi.unizh.ch>; Fri, 25 Oct 1996 21:31:31 +0100
  7. Subject: Re: [URN] URN Syntax thoughts
  8. To: masinter@parc.xerox.com
  9. Date: Fri, 25 Oct 1996 21:31:30 +0100 (MET)
  10. Cc: jayhawk@ds.internic.net, urn-ietf@bunyip.com
  11. In-Reply-To: <96Oct25.090902pdt."2759"@golden.parc.xerox.com> from "Larry Masinter" at Oct 25, 96 09:09:02 am
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 3112
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..739:25.09.96.20.31.46"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. Larry Masenter wrote:
  24.  
  25. >> Is it so much different to back away from the 10646/UTF-8 statement in 
  26. >> the syntax document and say "As part of the registration procedure, the
  27. >> character set/encoding used by a namespace shall be documented, or some
  28. >> such words to that effect."
  29. >
  30. >This is completely inadequate: the user and client need to be able to
  31. >translate the thing that the user sees on the cereal boxtop (sequence
  32. >of glyphs) into what gets transmitted over the network (sequence of
  33. >octets) in an unambiguous way. The translation method can't vary
  34. >depending on the the first part of what's translated.
  35.  
  36. I definitely agree that we should not let things float too much.
  37. In may view, it should run down to the following statements:
  38.  
  39. - If you create something new, and deal with characters, use UTF-8.
  40. - If you have something old, try to move towards UTF-8.
  41. - If you don't do UTF-8, be aware that support is not guaranteed
  42.     (i.e. you will have to print %HH on your cardboard box,...).
  43.     [So this means that the translation method doesn't vary.
  44.      It's just not there in some cases :-).]
  45. - If you use an octet sequence that is not UTF-8, we won't consider
  46.     that an outright error.
  47.  
  48. I repeat the main reasons for why I think this amount of flexibility
  49. is necessary. First, there are cases where you don't know what
  50. encoding is used. You could treat that like the data URL, but
  51. in some cases, this would mean that you would have to split
  52. functionality that now comes together. FTP is a typical example.
  53. It is very difficult to specify that servers that don't know
  54. the encodings of their filenames should use a data-like scheme,
  55. and those that know the encoding can use UTF-8. It is much
  56. more encouraging to say: If you know, convert to UTF-8; if you
  57. don't know, use raw octets. This gives a very smooth transition.
  58.  
  59. The other reason for flexibility is political. Some people are,
  60. for some sometimes rather strange reasons, heavily against
  61. Unicode. It's much easier to deal with them if we don't
  62. "force everybody to use Unicode". Still, we want things to
  63. go in that direction, so simplify things, and so just saying
  64. "the namespaces take care" is of no use.
  65.  
  66. A minor, but maybe serious, problem in this approach is the
  67. following: Assume at some point (either at entry or at some
  68. server) some general UTF-8 URN normalization/canonicalization
  69. is done. It's easy to say that no such thing should be done
  70. on octet sequences that are not legal UTF-8. But there is
  71. a slight possiblity that some arbitrary octet sequence is
  72. UTF-8 (and not pure ASCII). Here are the probabilities,
  73. derived mostly by simulation:
  74. Length of sequence    approximate probability
  75. 1            0
  76. 2            1/32
  77. 3            1/28
  78. 4            1/35
  79. 5            1/48
  80. 6            1/70
  81. 7            1/107
  82. 8            1/175
  83. 9            1/287
  84. 10            1/465
  85. 15            1/6450
  86. 20            1/100000
  87.  
  88. Of course, the probabilities of octet sequences that would
  89. be affected by normalization is much much lower, esp. if this
  90. normalization is restricted to cases of the A-grave type.
  91. It might be possible to construct a RISK case out of this :-(.
  92.  
  93. Still, I think a little bit of flexibility for backwards
  94. compatibility is desirable.
  95.  
  96.  
  97. Regards,    Martin.